Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
Este estudo demonstra que modelos de linguagem grande (LLMs) alcançam precisão e reprodutibilidade quase perfeitas na avaliação de redações de reflexão de estudantes de medicina, sendo que modelos ajustados e prompts com exemplos oferecem maior acurácia, embora com custos variáveis dependendo do volume de processamento.